预先训练的上下文化文本表示模型学习自然语言的有效表示,以使IT机器可以理解。在注意机制的突破之后,已经提出了新一代预磨模的模型,以便自变压器引入以来实现了良好的性能。来自变压器(BERT)的双向编码器表示已成为语言理解的最先进的模型。尽管取得了成功,但大多数可用的型号已经在印度欧洲语言中培训,但是对代表性的语言和方言的类似研究仍然稀疏。在本文中,我们调查了培训基于单语言变换器的语言模型的可行性,以获得代表语言的特定重点是突尼斯方言。我们评估了我们的语言模型对情感分析任务,方言识别任务和阅读理解问答任务。我们表明使用嘈杂的Web爬网数据而不是结构化数据(维基百科,文章等)更方便这些非标准化语言。此外,结果表明,相对小的Web爬网数据集导致与使用较大数据集获得的那些表现相同的性能。最后,我们在所有三个下游任务中达到或改善了最先进的Tunbert模型。我们释放出Tunbert净化模型和用于微调的数据集。
translated by 谷歌翻译
The task of locating and classifying different types of vehicles has become a vital element in numerous applications of automation and intelligent systems ranging from traffic surveillance to vehicle identification and many more. In recent times, Deep Learning models have been dominating the field of vehicle detection. Yet, Bangladeshi vehicle detection has remained a relatively unexplored area. One of the main goals of vehicle detection is its real-time application, where `You Only Look Once' (YOLO) models have proven to be the most effective architecture. In this work, intending to find the best-suited YOLO architecture for fast and accurate vehicle detection from traffic images in Bangladesh, we have conducted a performance analysis of different variants of the YOLO-based architectures such as YOLOV3, YOLOV5s, and YOLOV5x. The models were trained on a dataset containing 7390 images belonging to 21 types of vehicles comprising samples from the DhakaAI dataset, the Poribohon-BD dataset, and our self-collected images. After thorough quantitative and qualitative analysis, we found the YOLOV5x variant to be the best-suited model, performing better than YOLOv3 and YOLOv5s models respectively by 7 & 4 percent in mAP, and 12 & 8.5 percent in terms of Accuracy.
translated by 谷歌翻译
在这项工作中,提出了基于实时手势识别系统的实时手势识别系统界面(HCI)。该系统由六个阶段组成:(1)手势分割,(3)使用转移学习方法使用六个预训练的CNN模型,(4)构建交互式的人机界面,(( 5)开发手势控制的虚拟鼠标,(6)使用卡尔曼过滤器来估计手部位置,因为指针的平滑度得到了改善。六个预训练的卷积神经网络(CNN)模型(VGG16,VGG19,RESNET50,RESNET101,INCEPTION-V1和MOBILENET-V1)已用于对手势图像进行分类。三个多级数据集(两个公开和一个自定义)已用于评估模型性能。考虑到模型的性能,已经观察到,与其他五个预训练的模型相比,Inception-V1在准确性,精度,召回和F-SCORE值方面表现出了更好的分类性能。手势识别系统已扩展并用于控制多媒体应用程序(例如VLC播放器,音频播放器,文件管理,播放2D Super-Mario-Bros游戏等),并在实时场景中具有不同的自定义手势命令。该系统的平均速度已达到35 fps(每秒帧),满足实时场景的要求。
translated by 谷歌翻译
通过人类活动(例如在线购买,健康记录,空间流动性等)生成的大量数据可以在连续时间内表示为一系列事件。在这些连续的时间事件序列上学习深度学习模型是一项非平凡的任务,因为它涉及建模不断增加的事件时间戳,活动间时间差距,事件类型以及不同序列内部和跨不同序列之间的不同事件之间的影响。近年来,对标记的时间点过程(MTPP)的神经增强功能已成为一种强大的框架,以模拟连续时间内定位的异步事件的基本生成机制。但是,MTPP框架中的大多数现有模型和推理方法仅考虑完整的观察方案,即所建模的事件序列是完全观察到的,没有丢失的事件 - 理想的设置很少适用于现实世界应用程序。最近考虑的事件的最新工作是在培训MTPP时采用监督的学习技术,这些技术需要以序列的方式了解每个事件的丢失或观察标签,这进一步限制了其实用性,因为在几种情况下,缺失事件的细节是不知道的apriori 。在这项工作中,我们提供了一种新颖的无监督模型和推理方法,用于在存在事件序列的情况下学习MTPP。具体而言,我们首先使用两个MTPP模拟观察到的事件和缺失事件的生成过程,其中缺少事件表示为潜在的随机变量。然后,我们设计了一种无监督的训练方法,该方法通过变异推断共同学习MTPP。这样的公式可以有效地将丢失的数据归为观察到的事件,并可以在序列中确定缺失事件的最佳位置。
translated by 谷歌翻译
由于在过去几年中兴趣的增长,基于梯度的政策控制方法也得到了控制问题的普及。并且正确地,由于梯度策略方法具有以端到端的方式优化利息度量的优点,并且在没有完全了解底层系统的情况下相对容易实现。在本文中,我们研究了基于梯度的策略优化方法的全局融合,用于离散时间和无模型的Markovian跳转线性系统(MJLS)的二次控制。我们超越了由于多个州而产生的宗教挑战,并通过缺乏系统动态缺乏了解,并使用梯度下降和自然政策梯度方法显示全球策略融合。我们还提供模拟研究来证实我们的索赔。
translated by 谷歌翻译
深度学习已经变得过于复杂,并且在解决图像分类,对象检测等若干古典问题方面享有恒星的成功。已经提出了几种解释这些决定的方法。由于它们不利用模型的内部来解释该决定,为生成显着性图产生显着性图的方法特别感到很有趣。大多数黑匣子方法扰乱了输入并观察输出的变化。我们将显着的图形制定为顺序搜索问题,并利用加强学习(RL)来累积来自输入图像的证据,最强烈地支持分类器的决策。这种战略鼓励智能地搜索扰动,这将导致高质量的解释。虽然成功的黑匣子解释方法需要依靠重计算并遭受小的样本近似,但我们的方法学到的确定性政策使得在推理期间更有效。三个基准数据集的实验证明了在不损害性能的情况下推动了推理时间的提议方法的优越性。项目页面:https://cvir.github.io/projects/rexl.html
translated by 谷歌翻译
离散的Hahn多项式(DHP)及其时刻被认为是高效的正交矩之一,并且它们应用于各种科学领域,例如图像处理和特征提取。通常,DHP用作对象表示;然而,当瞬间顺序变大时,它们遭受数值不稳定性的问题。在本文中,提出了一种用于计算HAHN正交基础的有效方法,并应用于高订单。本文开发了一种用于计算DHP初始值的新数学模型,以及用于DHP参数的不同值($ \ alpha $和$ \ beta $)。另外,所提出的方法由两个复发算法组成,具有自适应阈值,以稳定DHP系数的产生。它与在计算成本和可以正确生成的最大尺寸方面与最先进的算法进行比较。实验结果表明,该算法在($ \ alpha $和$ \ beta $)和多项式大小的宽范围范围内的参数中表现更好。
translated by 谷歌翻译
在几个真实的世界应用中,部署机器学习模型以使数据对分布逐渐变化的数据进行预测,导致火车和测试分布之间的漂移。这些模型通常会定期在新数据上重新培训,因此他们需要概括到未来的数据。在这种情况下,有很多关于提高时间概括的事先工作,例如,过去数据的连续运输,内核平滑时间敏感参数,最近,越来越多的时间不变的功能。但是,这些方法共享了几个限制,例如可扩展性差,培训不稳定,以及未来未标记数据的依赖性。响应上述限制,我们提出了一种简单的方法,该方法以时间敏感的参数开头,但使用梯度插值(GI)丢失来规则地规则化其时间复杂度。 GI允许决策边界沿着时间改变,并且仍然可以通过允许特定于时间的改变来防止对有限训练时间快照的过度接种。我们将我们的方法与多个实际数据集的现有基线进行比较,这表明GI一方面优于更加复杂的生成和对抗方法,另一方面更简单地梯度正则化方法。
translated by 谷歌翻译
多条证据表明预测模型可能受益于算法分类。在算法分类下,预测模型不会预测所有情况,而是将其中一些人迁移到人类专家。然而,在算法分类下模型的预测准确性与人类专家之间的相互作用并不充分理解。在这项工作中,我们首先正式表征在这种情况下,在这种情况下,预测模型可能受益于算法分类。在这样做时,我们还证明了用于完整自动化培训的模型可能是在分类下的次优。然后,给定任何模型和所需的分类级别,我们示出了最佳分类策略是确定性阈值规则,其中通过在每个实例级别上的模型和人为错误之间的差异来确定分类决策。建立这些结果,我们介绍了一种实用的基于梯度的算法,保证找到一系列分类策略和提高性能的预测模型。来自两个重要应用的合成和实际数据的各种监督学习任务的实验 - 内容调度和科学发现 - 说明了我们的理论结果,并表明我们的梯度基算法提供的模型和分类策略优于所提供的算法几个竞争的基线。
translated by 谷歌翻译
Deep neural networks are being used increasingly to automate data analysis and decision making, yet their decision-making process is largely unclear and is difficult to explain to the end users. In this paper, we address the problem of Explainable AI for deep neural networks that take images as input and output a class probability. We propose an approach called RISE that generates an importance map indicating how salient each pixel is for the model's prediction. In contrast to white-box approaches that estimate pixel importance using gradients or other internal network state, RISE works on blackbox models. It estimates importance empirically by probing the model with randomly masked versions of the input image and obtaining the corresponding outputs. We compare our approach to state-of-the-art importance extraction methods using both an automatic deletion/insertion metric and a pointing metric based on human-annotated object segments. Extensive experiments on several benchmark datasets show that our approach matches or exceeds the performance of other methods, including white-box approaches.
translated by 谷歌翻译